红葡萄酒数据质量分析报告

========================================================

数据集结构

选择的是红葡萄酒质量数据集

概述

数据集包含1,599 种红酒,以及 11 个关于酒的化学成分的变量。⾄少 3 名葡萄酒专家对每种酒的质量进⾏了评分,分数在 0(⾮常差)和10(⾮常好)之间。

问题

哪个化学成分影响红葡萄酒的质量?

数据基本情况

通过str查看数据结构:

## 'data.frame':    1599 obs. of  13 variables:
##  $ X                   : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ fixed.acidity       : num  7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
##  $ volatile.acidity    : num  0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
##  $ citric.acid         : num  0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
##  $ residual.sugar      : num  1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
##  $ chlorides           : num  0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
##  $ free.sulfur.dioxide : num  11 25 15 17 11 13 15 15 9 17 ...
##  $ total.sulfur.dioxide: num  34 67 54 60 34 40 59 21 18 102 ...
##  $ density             : num  0.998 0.997 0.997 0.998 0.998 ...
##  $ pH                  : num  3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
##  $ sulphates           : num  0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
##  $ alcohol             : num  9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
##  $ quality             : int  5 5 5 6 5 5 5 7 7 5 ...

四分位

##        X          fixed.acidity   volatile.acidity  citric.acid   
##  Min.   :   1.0   Min.   : 4.60   Min.   :0.1200   Min.   :0.000  
##  1st Qu.: 400.5   1st Qu.: 7.10   1st Qu.:0.3900   1st Qu.:0.090  
##  Median : 800.0   Median : 7.90   Median :0.5200   Median :0.260  
##  Mean   : 800.0   Mean   : 8.32   Mean   :0.5278   Mean   :0.271  
##  3rd Qu.:1199.5   3rd Qu.: 9.20   3rd Qu.:0.6400   3rd Qu.:0.420  
##  Max.   :1599.0   Max.   :15.90   Max.   :1.5800   Max.   :1.000  
##  residual.sugar     chlorides       free.sulfur.dioxide
##  Min.   : 0.900   Min.   :0.01200   Min.   : 1.00      
##  1st Qu.: 1.900   1st Qu.:0.07000   1st Qu.: 7.00      
##  Median : 2.200   Median :0.07900   Median :14.00      
##  Mean   : 2.539   Mean   :0.08747   Mean   :15.87      
##  3rd Qu.: 2.600   3rd Qu.:0.09000   3rd Qu.:21.00      
##  Max.   :15.500   Max.   :0.61100   Max.   :72.00      
##  total.sulfur.dioxide    density             pH          sulphates     
##  Min.   :  6.00       Min.   :0.9901   Min.   :2.740   Min.   :0.3300  
##  1st Qu.: 22.00       1st Qu.:0.9956   1st Qu.:3.210   1st Qu.:0.5500  
##  Median : 38.00       Median :0.9968   Median :3.310   Median :0.6200  
##  Mean   : 46.47       Mean   :0.9967   Mean   :3.311   Mean   :0.6581  
##  3rd Qu.: 62.00       3rd Qu.:0.9978   3rd Qu.:3.400   3rd Qu.:0.7300  
##  Max.   :289.00       Max.   :1.0037   Max.   :4.010   Max.   :2.0000  
##     alcohol         quality     
##  Min.   : 8.40   Min.   :3.000  
##  1st Qu.: 9.50   1st Qu.:5.000  
##  Median :10.20   Median :6.000  
##  Mean   :10.42   Mean   :5.636  
##  3rd Qu.:11.10   3rd Qu.:6.000  
##  Max.   :14.90   Max.   :8.000

单变量分析

  1. 红酒质量的分布状况

大部分葡萄酒质量分布集中在5和6之间.集中在中间部分

## 
##   3   4   5   6   7   8 
##  10  53 681 638 199  18
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

  1. 酒精含量分布

红酒酒精含量普遍不高,属于低度酒,大概在9%~12%之间。

选取水密度wine$density在25%以下的样本,其酒精浓度alcohol的分布于上面的总体数据酒精度数分布不同。 相对于总体数据的酒精度数分布,高度数的红酒更多。 可以看到水密度与酒精浓度是相关的,具体的相关系数后续继续分析。

  1. ph值分布

大部分pH值在3.0-3.5之间。

  1. sugar值分布

sugar值大部分集中在1-3之间。

  1. fixed acidity分布

固定酸度大部分集中在6-8之间。

  1. chlorides分布

盐分浓度集中在0.05-0.1之间。

  1. 二氧化硫对红酒品质的影响

总二氧化硫中包含了游离二氧化硫和结合二氧化硫,数据集中只有游离二氧化硫数据,考虑到结合二氧化硫可能会影响到红酒品质,为了方便,添加一个新的变量:结合二氧化硫 bound.sulfur.dioxide

从数据集中的介绍中了解到如果total sulfur dioxide即总二氧化硫量大于50ppm的话,就会感受到二氧化硫的味道,但是看下图的分布,即使选取的样本的游离二氧化硫量大于50ppm,其品质也没有特别低,但是样本量太小,所以并不能说明二氧化硫大于50这种性质,与品质之间相关度低。具体还要后续分析。

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

下图可以发现游离二氧化硫浓度,大部分介于2-40之间。

  1. 红葡萄酒的密度分布

红葡萄酒的密度与水十分接近,呈现正态分布

  1. sulphates浓度分析

红酒中的硫酸盐添加剂主要分布在0.4~0.8之间,近似正态分布。

你的数据集内感兴趣的主要特性有哪些?

本数据集中最主要的特性是红酒品质quality,希望能通过探索红酒的其他属性如酸度,残糖以及pH值等元素,来建立一个模型预测红酒的品质。 ### 你认为数据集内哪些其他特征可以帮助你探索兴趣特点? 对葡萄酒的平衡起着关键性影响的元素,包括:甜度、酸度、果味、酒精以及单宁。这些影响元素在数据集中呈现为:

  1. 甜度:残留糖分residual.sugar,残留糖分较高的葡萄酒,尝起来会有甜腻的口感,但是如果糖分不足又会使得葡萄酒变得尖酸干涩难以下咽。
  2. 酸度:柠檬酸citric.acid
  3. 酒精:alcohol,过高的酒精度会给喉咙带来烧灼感

优先分析上述元素对红酒品质的影响。

根据数据集内已有变量,你是否创建了任何新变量?

为了后续分析方便,通过total.sulfur.dioxide总二氧化硫量和free.sulfur.dioxide游离二氧化硫,计算得到bound.sulfur.dioxide结合二氧化硫。

在已经探究的特性中,是否存在任何异常分布?你是否对数据进行一些操作,如清洁、调整或改变数据的形式?如果是,你为什么会这样做?

暂未发现异常分布的数据,数据也是完整无丢失的。

双变量绘图选择

  1. 柠檬酸citric.acid与红酒品质quality之间的点阵图

之前凭直觉认为柠檬酸与红酒品质关联性强,但是通过下面的图形和输出的相关度分析,存在关联但是关联性不强。

## 
##  Pearson's product-moment correlation
## 
## data:  wine$citric.acid and wine$quality
## t = 9.2875, df = 1597, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.1793415 0.2723711
## sample estimates:
##       cor 
## 0.2263725
  1. 硫酸盐sulphates与二氧化硫量之间的关联

从上图看,两者似乎没有关联关系,为了进一步验证,计算两者之间的相关系数,分别为0.04和0.05,可以知道硫酸盐对二氧化硫的影响不大:

## 
##  Pearson's product-moment correlation
## 
## data:  wine$free.sulfur.dioxide and wine$sulphates
## t = 2.0671, df = 1597, p-value = 0.03888
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.002643125 0.100424406
## sample estimates:
##        cor 
## 0.05165757
## 
##  Pearson's product-moment correlation
## 
## data:  wine$total.sulfur.dioxide and wine$sulphates
## t = 1.7178, df = 1597, p-value = 0.08602
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.006087119  0.091774762
## sample estimates:
##        cor 
## 0.04294684
  1. 酒精度数alcohol与密度density之间的关系

从上图看两者存在较强相关性,酒精度数越高,密度就越低,其相关系数为-0.496,存在较强的相关关系:

## 
##  Pearson's product-moment correlation
## 
## data:  wine$alcohol and wine$density
## t = -22.838, df = 1597, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.5322547 -0.4583061
## sample estimates:
##        cor 
## -0.4961798
  1. 各种酸度与pH值之间的关系

从上述图形上看,pH值越高挥发性酸度就越大,固定酸度和柠檬酸度越小。

  1. 不同品质下酒精浓度和红酒数量的分布

如下是不同红酒品质下,不同酒精度数红酒的数量分布,从下面的分布图中可以看出: - 大部分红酒品质在5-6之间 - 随着度数增加,品质高的红酒比例增加

  1. 不同红酒品质quality下,观察柠檬酸度citric acid的数据概要

根据数据集的介绍了解到,citric acid会增加红酒的鲜度,观察下面的统计结果,随着红酒品质的提升,其柠檬酸度整体也在增加。

## wine$quality: 3
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0050  0.0350  0.1710  0.3275  0.6600 
## -------------------------------------------------------- 
## wine$quality: 4
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0300  0.0900  0.1742  0.2700  1.0000 
## -------------------------------------------------------- 
## wine$quality: 5
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0900  0.2300  0.2437  0.3600  0.7900 
## -------------------------------------------------------- 
## wine$quality: 6
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0900  0.2600  0.2738  0.4300  0.7800 
## -------------------------------------------------------- 
## wine$quality: 7
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.3050  0.4000  0.3752  0.4900  0.7600 
## -------------------------------------------------------- 
## wine$quality: 8
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0300  0.3025  0.4200  0.3911  0.5300  0.7200

从下图可以看到,品质一般的红酒(quality为5和6),其柠檬酸度低的较多,而quality为7和8的红酒,相对来说,柠檬酸度高的比例较高。

  1. 各变量的散点矩阵图

分析上面的散点矩阵图,质量quality与挥发性酸度volatile.acidity相关系数为0.405 ,与酒精度数alcohol的相关度为0.436,有较强的相关关系。

下面分别进行双变量分析:

(1). 质量与酒精度数的图如下,下图可以看出,品质好的红酒,其度数普遍高于品质差的红酒。 从上到下的虚线分别表示,不同百分比处酒精浓度的变化曲线图: - 蓝色:90% - 绿色:50% - 黄色:平均值 - 红色:10%

(2). 上面相同的方式,质量与挥发性酸度的图如下,从图上可以看出,品质好的红酒其挥发性酸度普遍低于品质低的红酒。

从上到下的虚线分别表示,不同百分比处挥发性酸度的变化曲线图: - 蓝色:90% - 绿色:50% - 黄色:平均值 - 红色:10%

双变量分析

探讨你在这部分探究中观察到的一些关系。这些感兴趣的特性与数据集内其他特性有什么区别?

这部分集中探索了两个变量的分布关系,例如 - 柠檬酸与红酒品质的分布,硫酸盐与二氧化硫的分布,之前凭直觉认为两者的关联性很强,但经过绘图与分析发现直觉是错误的,并没有太强的关联关系。 - 酒精度数与密度的分布,以及各种酸度与PH的分布,与预想的结果类似,这些分布的两个变量之间存在较强的相关性。 - 酒精度数与红酒品质的分布,这个结果是没有料到的,从图形上看,酒精度数对红酒品质的影响很大。

通过数据集中的介绍,以及主观的判断,觉得关联关系强的变量,经过分析,事实上没有太强的关联关系。说明在数据分析过程中,不能凭主观的判断,必须通过客观的统计分析才能得出正确的结论。 ### 你是否观察到主要特性与其他特性之间的有趣关系? 从数据集的介绍中了解到,硫酸盐是一种用于产生二氧化硫的添加剂,但是经过绘图和分析,硫酸盐与总二氧化硫,硫酸盐与游离二氧化硫之间相关关系非常小,这一点比较意外。 ### 你发现最强的关系是什么? 最强的关系是酒精度数与密度的关系。

多变量绘图选择

挥发性酸/酒精度/硫酸盐等与红酒品质的多变量绘图

从上面双变量分析中可知,挥发性酸度和酒精度对红酒品质影响较大,下面将这三个变量放在一个图中进行分析,从下图可以看出,随着红酒品质的升高,分布逐渐集中到左上区域,即品质越高,酒精度约高,挥发性酸越低。

下面再加一个变量硫酸盐:

从上面的图形很难看出硫酸盐对品质的影响。下面将通过quality再生成一个变量grade,分成三个level,分别为low(4分以及以下),medium(5和6),high(7分及以上),再重新绘图:

## 
##    low medium   high 
##     63   1319    217

上图中,在红酒等级为high时,其冷色调的点密度较等级为low和medium时高,说明从整体上,硫酸盐高的红酒,其品质也更高。

硫酸盐/游离二氧化硫/总二氧化硫量/品质的多变量绘图

根据数据集介绍,硫酸盐是一种会产生二氧化硫的添加剂,但是经过下图的分析,各个品质的红酒中,游离二氧化硫与总二氧化硫有很强的正相关,但是硫酸盐与游离二氧化硫和总二氧化硫之间并无明显相关性。

酒精浓度/密度/红酒品质之间的多变量分布图

根据数据集介绍,密度与酒精浓度有关,下面是在不同品质下,酒精度数与水密度之间的分布图: - 红酒品质越高,酒精度数整体越高 - 酒精度数越高,水密度整体越低

线性模型

通过线性模型,能基于红酒的各种化学特征,对红酒品质进行预测。 按照特征与品质之间的相关强度,递增的方式建立模型。

## 
## Calls:
## m1: lm(formula = quality ~ volatile.acidity, data = wine)
## m2: lm(formula = quality ~ volatile.acidity + alcohol, data = wine)
## m3: lm(formula = quality ~ volatile.acidity + alcohol + sulphates, 
##     data = wine)
## m4: lm(formula = quality ~ volatile.acidity + alcohol + sulphates + 
##     citric.acid, data = wine)
## m5: lm(formula = quality ~ volatile.acidity + alcohol + sulphates + 
##     citric.acid + total.sulfur.dioxide, data = wine)
## m6: lm(formula = quality ~ volatile.acidity + alcohol + sulphates + 
##     citric.acid + total.sulfur.dioxide + chlorides, data = wine)
## m7: lm(formula = quality ~ volatile.acidity + alcohol + sulphates + 
##     citric.acid + total.sulfur.dioxide + chlorides + density, 
##     data = wine)
## 
## ==========================================================================================================================
##                              m1            m2            m3            m4            m5            m6            m7       
## --------------------------------------------------------------------------------------------------------------------------
##   (Intercept)               6.566***      3.095***      2.611***      2.646***      2.843***      2.985***     -0.953     
##                            (0.058)       (0.184)       (0.196)       (0.201)       (0.205)       (0.206)      (11.990)    
##   volatile.acidity         -1.761***     -1.384***     -1.221***     -1.265***     -1.222***     -1.104***     -1.114***  
##                            (0.104)       (0.095)       (0.097)       (0.113)       (0.112)       (0.115)       (0.120)    
##   alcohol                                 0.314***      0.309***      0.309***      0.295***      0.276***      0.280***  
##                                          (0.016)       (0.016)       (0.016)       (0.016)       (0.017)       (0.020)    
##   sulphates                                             0.679***      0.696***      0.721***      0.908***      0.903***  
##                                                        (0.101)       (0.103)       (0.103)       (0.111)       (0.112)    
##   citric.acid                                                        -0.079        -0.043         0.065         0.044     
##                                                                      (0.104)       (0.104)       (0.106)       (0.124)    
##   total.sulfur.dioxide                                                             -0.002***     -0.002***     -0.002***  
##                                                                                    (0.001)       (0.001)       (0.001)    
##   chlorides                                                                                      -1.763***     -1.747***  
##                                                                                                  (0.403)       (0.406)    
##   density                                                                                                       3.923     
##                                                                                                               (11.944)    
## --------------------------------------------------------------------------------------------------------------------------
##   R-squared                 0.153         0.317         0.336         0.336         0.344         0.352         0.352     
##   adj. R-squared            0.152         0.316         0.335         0.334         0.342         0.349         0.349     
##   sigma                     0.744         0.668         0.659         0.659         0.655         0.651         0.652     
##   F                       287.444       370.379       268.912       201.777       166.962       143.910       123.298     
##   p                         0.000         0.000         0.000         0.000         0.000         0.000         0.000     
##   Log-likelihood        -1794.312     -1621.814     -1599.384     -1599.093     -1589.749     -1580.192     -1580.138     
##   Deviance                883.198       711.796       692.105       691.852       683.814       675.689       675.643     
##   AIC                    3594.624      3251.628      3208.768      3210.186      3193.499      3176.384      3178.276     
##   BIC                    3610.756      3273.136      3235.654      3242.448      3231.138      3219.401      3226.670     
##   N                      1599          1599          1599          1599          1599          1599          1599         
## ==========================================================================================================================

当模型选取6个参数时有最小的AIC值,加入第七个参数后其AIC又开始增加。

最终模型应该是如下: quality = 2.985 - 1.104*volatile.acidity + 0.276*alcohol + 0.908*sulphates + 0.065*citric.acid - 0.002*total.sulfur.dioxide - 1.763*chlorides

多变量分析

探讨你在这部分探究中观察到的一些关系。通过观察感兴趣的特性,是否存在相互促进的特性?

通过上面的单变量和双变量分析,都没有发现对红酒品质产生决定性影响的变量,通过对多变量的分析,观察到了如下影响到红酒品质的关系: - 挥发性酸越低,红酒品质越高 - 硫酸盐越高,红酒品质也越高 - 酒精浓度越高,红酒品质也越高

另外,存在如下的相互促进的特性: - 酒精浓度越高,密度越低 - 游离二氧化硫越高,总二氧化硫越高 因为这些特性之间存在某种关联,会构成相互促进的特性也合乎逻辑。

这些特性之间是否存在有趣或惊人的联系呢?

通过上面的分析,了解到挥发性酸,硫酸盐,以及酒精浓度是对红酒品质影响最大的变量,前两种分别是酸味和咸味,后一种作为酒类最重要的组成元素,这三类味觉对红酒品质影响最大,这也符合常识。

选项:你是否创建过数据集的任何模型?讨论你模型的优缺点。

创建了一个线性模型,递增使用了7个变量,选取了AIC值最小时的6个变量建立的线性模型,这6个变量没有经过任何处理,所以红酒品质预测结果与这6个变量完全是线性关系,所以最终结果可能不是很准确。

定稿图与总结

绘图一

描述一

针对上面的quality/alcohol(plot-2)和quality/volatile.acidity(plot-2),能够发现quality与alcohol和volatile.acidity之间的一些变化趋势,下面将红酒品质处理成了三个等级分别为low(0,4], medium(4,6], high(6,8],另外对density和citric.acid也做同样的绘图。 从四个图形中能得到如下结论: - 大部分的红酒其品质居中 - 红酒品质越高,挥发性酸volatile.acidity整体上越低 - 红酒品质越高,酒精度数alcohol,柠檬酸 citric.acid和硫酸盐sulphates整体上越低

绘图二

描述二

在不同品质下,酒精度数与水密度之间的分布图,从图中可以看出: - 红酒品质越高,酒精度数整体越高 - 酒精度数越高,水密度整体越低

绘图三

描述三

在上面的双变量分析中,探讨了红酒品质与酒精浓度的关系,但是该图红酒品质分级过多,不是一目了然。下面使用综合后的品质属性grade,与酒精浓度进行绘图。

如下是不同红酒品质下,不同酒精度数红酒的数量分布,从下面的分布图中可以看出: - 大部分红酒品质居中 - 随着度数增加,品质高的红酒增加


反思

本数据集包含了1599条记录,11个变量,通过分析这些变量与品质之间的相关关系,判断变量是如何影响红酒品质的。 但是这些变量中没有哪种变量能够决定性的影响红酒品质,最终通过多个变量的分析,判断如下四种变量最能影响红酒品质: - 酒精度数,与品质呈正相关关系,度数越高品质趋向升高 - 挥发性酸,与品质呈负相关关系,酸度越高品质趋向降低 - 硫酸盐,与品质呈正相关关系,硫酸盐越多品质趋向升高 - 柠檬酸,与品质呈正相关关系,酸度越高品质趋向降低,通过数据分析之前,认为柠檬酸与品质应该是强相关的,但是经过分析之后发现其相关度并不高

另外,同样影响味觉的甜味和咸味,即变量残糖residual.sugar和氯化物chlorides,其对品质的影响微弱,可见得到一个结论需要科学的分析,不能凭直觉判断。

后续如果引入机器学习进行分析,另外加大数据量,应该能更精确的分析哪些变量对红酒品质的影响.